Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.
Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.
Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:
Pasos requeridos para la obtención de los resultados
Basándonos en la información proporcionada por el resumen y la estructura del conjunto de datos, podemos hacer varias observaciones significativas. El conjunto de datos consta de 8322 observaciones con 13 variables. Algunas de estas variables tienen valores faltantes, como piso, estrato, preciom, areaconst, parqueaderos, banios, habitaciones, longitud y latitud, lo que sugiere la necesidad de manejar estos valores faltantes antes de realizar análisis posteriores. Las variables zona, piso, tipo y barrio son de naturaleza categórica, mientras que las variables id, estrato, preciom, areaconst, parqueaderos, banios, habitaciones, longitud y latitud son numéricas. Además, la presencia de problemas detectados en los datos sugiere la posibilidad de inconsistencias o errores que deben abordarse durante el análisis. En resumen, este conjunto de datos proporciona una variedad de información sobre propiedades inmobiliarias, incluidos detalles sobre su ubicación, características y precios, pero requerirá un procesamiento cuidadoso para garantizar su validez y utilidad en el análisis posterior.
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ id : num [1:8322] 1147 1169 1350 5992 1212 ...
## $ zona : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
## $ piso : chr [1:8322] NA NA NA "02" ...
## $ estrato : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
## $ preciom : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
## $ areaconst : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
## $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
## $ banios : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
## $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
## $ tipo : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
## $ barrio : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
## $ longitud : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
## $ latitud : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
## - attr(*, "spec")=
## .. cols(
## .. id = col_double(),
## .. zona = col_character(),
## .. piso = col_character(),
## .. estrato = col_double(),
## .. preciom = col_double(),
## .. areaconst = col_double(),
## .. parqueaderos = col_double(),
## .. banios = col_double(),
## .. habitaciones = col_double(),
## .. tipo = col_character(),
## .. barrio = col_character(),
## .. longitud = col_double(),
## .. latitud = col_double()
## .. )
## - attr(*, "problems")=<externalptr>
De acuerdo a la solicitud del informe se presenta a continuación un sub conjunto de datos que permite visualizar el contenido correspondiente al tipo de inmueble casa para la zona norte, en este sentido se destaca lo siguiente:
Las estadísticas descriptivas de las ofertas de casas en la zona norte revelan una amplia gama de características y variabilidad en los datos. Con un total de 722 registros, este conjunto de datos parece haber sido filtrado correctamente para incluir solo las ofertas de casas en la zona norte. Se observa la presencia de valores faltantes en algunos atributos, lo cual es consistente con la estructura original del dataset.
En cuanto a los precios de las casas, se observa una gran variación, con precios que oscilan entre 58 y 1999 unidades monetarias. Tanto la mediana como la media sugieren que la mayoría de las casas tienen precios alrededor de 390 y 445.9 unidades monetarias, respectivamente.
El análisis del área construida revela una diversidad similar, con valores que van desde 30 hasta 1745 metros cuadrados. La mediana y la media indican que la mayoría de las casas tienen un área construida de alrededor de 240 y 264.9 metros cuadrados, respectivamente.
Además de los precios y el área construida, otros atributos como el número de parqueaderos, baños y habitaciones también varían significativamente, con valores máximos de 10 en cada caso. Estos atributos son cruciales para entender las características y comodidades de las casas en la zona norte.## Primeros 3 registros de la base de datos filtrada:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1209 | Zona Norte | 02 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| 1592 | Zona Norte | 02 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
| 4057 | Zona Norte | 02 | 6 | 750 | 445 | NA | 7 | 6 | Casa | acopi | -76.52950 | 3.38527 |
## Estadísticas descriptivas de las ofertas de casas en la zona norte:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. : 58.0 | Length:722 | Length:722 | Min. :3.000 | Min. : 89.0 | Min. : 30.0 | Min. : 1.000 | Min. : 0.000 | Min. : 0.000 | Length:722 | Length:722 | Min. :-76.59 | Min. :3.333 | |
| 1st Qu.: 766.2 | Class :character | Class :character | 1st Qu.:3.000 | 1st Qu.: 261.2 | 1st Qu.: 140.0 | 1st Qu.: 1.000 | 1st Qu.: 2.000 | 1st Qu.: 3.000 | Class :character | Class :character | 1st Qu.:-76.53 | 1st Qu.:3.452 | |
| Median :2257.0 | Mode :character | Mode :character | Median :4.000 | Median : 390.0 | Median : 240.0 | Median : 2.000 | Median : 3.000 | Median : 4.000 | Mode :character | Mode :character | Median :-76.52 | Median :3.468 | |
| Mean :2574.6 | NA | NA | Mean :4.202 | Mean : 445.9 | Mean : 264.9 | Mean : 2.182 | Mean : 3.555 | Mean : 4.507 | NA | NA | Mean :-76.52 | Mean :3.460 | |
| 3rd Qu.:4225.0 | NA | NA | 3rd Qu.:5.000 | 3rd Qu.: 550.0 | 3rd Qu.: 336.8 | 3rd Qu.: 3.000 | 3rd Qu.: 4.000 | 3rd Qu.: 5.000 | NA | NA | 3rd Qu.:-76.50 | 3rd Qu.:3.482 | |
| Max. :8319.0 | NA | NA | Max. :6.000 | Max. :1940.0 | Max. :1440.0 | Max. :10.000 | Max. :10.000 | Max. :10.000 | NA | NA | Max. :-76.47 | Max. :3.496 | |
| NA | NA | NA | NA | NA | NA | NA’s :287 | NA | NA | NA | NA | NA | NA |
El gráfico de dispersión indica una fuerte correlación positiva entre
el precio y el área construida de las casas en la Zona Norte. El
coeficiente de correlación de 0,73 evidencia esta relación directa,
donde a mayor área construida, mayor es el precio de la vivienda. La
línea de tendencia sugiere un incremento promedio de 1,35 millones de
pesos por metro cuadrado adicional. No obstante, la dispersión de los
puntos alrededor de la línea de tendencia revela variaciones en el
precio influenciadas por otros factores como la ubicación, calidad de
construcción, características de la casa y el mercado inmobiliario.
Considerar todos estos aspectos es crucial al momento de buscar una
vivienda en la Zona Norte.
## Tabla de frecuencia de tipos de vivienda en la zona norte:
| Var1 | Freq |
|---|---|
| Casa | 722 |
## Tabla de frecuencia de estratos en la zona norte:
| Var1 | Freq |
|---|---|
| 3 | 235 |
| 4 | 161 |
| 5 | 271 |
| 6 | 55 |
## Tabla de frecuencia de barrios en la zona norte (ordenada por frecuencia descendente):
| Var1 | Freq |
|---|---|
| acopi | 70 |
| brisas de los | 22 |
| alamos | 3 |
| barranquilla | 3 |
| base aérea | 2 |
| alameda del río | 1 |
| atanasio girardot | 1 |
| barrio tranquilo y | 1 |
| berlin | 1 |
| brisas del guabito | 1 |
Las estadísticas descriptivas de las ofertas de casas en la zona sur muestran una diversidad significativa en los datos. Con un total de 1939 registros, este conjunto de datos parece haber sido filtrado adecuadamente para incluir solo las ofertas de casas en la zona sur. Se observa la presencia de valores faltantes en algunos atributos, lo cual es consistente con la estructura original del dataset.
En relación a los precios de las casas, se evidencia una amplia variación, con valores que oscilan entre 77 y 1900 unidades monetarias. Tanto la mediana como la media sugieren que la mayoría de las casas tienen precios alrededor de 480 y 612.3 unidades monetarias, respectivamente.
El análisis del área construida también revela una diversidad similar, con valores que van desde 48 hasta 1600 metros cuadrados. La mediana y la media indican que la mayoría de las casas tienen un área construida de alrededor de 247 y 282.3 metros cuadrados, respectivamente.
Además de los precios y el área construida, otros atributos como el número de parqueaderos, baños y habitaciones también varían significativamente, con valores máximos de 10 en cada caso. Estos atributos son cruciales para comprender las características y comodidades de las casas en la zona sur.## Primeros 3 registros de la base de datos filtrada:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 5992 | Zona Sur | 02 | 4 | 400 | 280 | 3 | 5 | 3 | Casa | 3 de julio | -76.540 | 3.435 |
| 5157 | Zona Sur | 02 | 3 | 500 | 354 | 1 | 2 | 4 | Casa | alameda | -76.535 | 3.437 |
| 5501 | Zona Sur | 02 | 3 | 175 | 102 | NA | 2 | 4 | Casa | alameda | -76.537 | 3.435 |
## Estadísticas descriptivas de las ofertas de casas en la zona sur:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. : 1 | Length:1939 | Length:1939 | Min. :3.000 | Min. : 77.0 | Min. : 48.0 | Min. : 1.000 | Min. : 0.000 | Min. : 0.000 | Length:1939 | Length:1939 | Min. :-76.57 | Min. :3.333 | |
| 1st Qu.:3230 | Class :character | Class :character | 1st Qu.:4.000 | 1st Qu.: 350.0 | 1st Qu.: 163.5 | 1st Qu.: 1.000 | 1st Qu.: 3.000 | 1st Qu.: 3.000 | Class :character | Class :character | 1st Qu.:-76.54 | 1st Qu.:3.368 | |
| Median :4941 | Mode :character | Mode :character | Median :5.000 | Median : 480.0 | Median : 247.0 | Median : 2.000 | Median : 4.000 | Median : 4.000 | Mode :character | Mode :character | Median :-76.53 | Median :3.389 | |
| Mean :4691 | NA | NA | Mean :4.842 | Mean : 612.3 | Mean : 282.3 | Mean : 2.415 | Mean : 4.173 | Mean : 4.514 | NA | NA | Mean :-76.53 | Mean :3.391 | |
| 3rd Qu.:6264 | NA | NA | 3rd Qu.:6.000 | 3rd Qu.: 780.0 | 3rd Qu.: 350.0 | 3rd Qu.: 3.000 | 3rd Qu.: 5.000 | 3rd Qu.: 5.000 | NA | NA | 3rd Qu.:-76.53 | 3rd Qu.:3.413 | |
| Max. :8305 | NA | NA | Max. :6.000 | Max. :1900.0 | Max. :1600.0 | Max. :10.000 | Max. :10.000 | Max. :10.000 | NA | NA | Max. :-76.46 | Max. :3.485 | |
| NA | NA | NA | NA | NA | NA | NA’s :215 | NA | NA | NA | NA | NA | NA |
El gráfico de dispersión para la Zona Sur presenta un coeficiente de correlación de 0.67, lo que indica una fuerte correlación positiva entre el precio y el área construida. Esto significa que existe una relación directa entre ambas variables: a mayor área construida, mayor es el precio de la vivienda.
La línea de tendencia en el gráfico indica que, en promedio, el precio aumenta en 1.2 millones de pesos por cada metro cuadrado adicional de área construida.
Sin embargo, la dispersión de los puntos alrededor de la línea de tendencia muestra una variación considerable en los precios.## Tabla de frecuencia de tipos de vivienda en la zona sur:
| Var1 | Freq |
|---|---|
| Casa | 1939 |
## Tabla de frecuencia de estratos en la zona sur:
| Var1 | Freq |
|---|---|
| 3 | 181 |
| 4 | 525 |
| 5 | 652 |
| 6 | 581 |
## Tabla de frecuencia de barrios en la zona sur (ordenada por frecuencia descendente):
| Var1 | Freq |
|---|---|
| alameda | 3 |
| altos de guadalupe | 2 |
| bella suiza alta | 2 |
| 3 de julio | 1 |
| alborada | 1 |
| alférez real | 1 |
| alferez real | 1 |
| aranjuez | 1 |
| barrio eucarístico | 1 |
| belalcazar | 1 |
Las estadísticas descriptivas de las ofertas de casas en la zona oriente muestran una distribución similar en los datos. Con un total de 289 registros, se observa una variabilidad notable en los atributos considerados. Al igual que en otras zonas, se encuentran valores faltantes en algunos atributos, lo cual es coherente con la estructura original del dataset.
En cuanto a los precios de las casas, se observa una variación considerable, con valores que van desde 80 hasta 750 unidades monetarias. Tanto la mediana como la media sugieren que la mayoría de las casas tienen precios alrededor de 235 y 244.8 unidades monetarias, respectivamente.
El análisis del área construida también muestra una diversidad significativa, con valores que van desde 40 hasta 1745 metros cuadrados. La mediana y la media indican que la mayoría de las casas tienen un área construida de alrededor de 179 y 213.4 metros cuadrados, respectivamente.
Además de los precios y el área construida, otros atributos como el número de parqueaderos, baños y habitaciones también exhiben variaciones notables, con valores máximos de 10 en cada caso.## Primeros 3 registros de la base de datos filtrada:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1147 | Zona Oriente | NA | 3 | 250 | 70 | 1 | 3 | 6 | Casa | 20 de julio | -76.51168 | 3.43382 |
| 1169 | Zona Oriente | NA | 3 | 320 | 120 | 1 | 2 | 3 | Casa | 20 de julio | -76.51237 | 3.43369 |
| 1350 | Zona Oriente | NA | 3 | 350 | 220 | 2 | 2 | 4 | Casa | 20 de julio | -76.51537 | 3.43566 |
## Estadísticas descriptivas de las ofertas de casas en la zona Oriente:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. : 21 | Length:289 | Length:289 | Min. :3.000 | Min. : 80.0 | Min. : 40.0 | Min. :1.00 | Min. : 0.000 | Min. : 0.000 | Length:289 | Length:289 | Min. :-76.56 | Min. :3.389 | |
| 1st Qu.: 424 | Class :character | Class :character | 1st Qu.:3.000 | 1st Qu.:160.0 | 1st Qu.: 122.0 | 1st Qu.:1.00 | 1st Qu.: 2.000 | 1st Qu.: 3.000 | Class :character | Class :character | 1st Qu.:-76.52 | 1st Qu.:3.423 | |
| Median : 972 | Mode :character | Mode :character | Median :3.000 | Median :235.0 | Median : 179.0 | Median :1.00 | Median : 3.000 | Median : 5.000 | Mode :character | Mode :character | Median :-76.51 | Median :3.438 | |
| Mean :1277 | NA | NA | Mean :3.028 | Mean :244.8 | Mean : 213.4 | Mean :1.39 | Mean : 2.965 | Mean : 5.318 | NA | NA | Mean :-76.51 | Mean :3.434 | |
| 3rd Qu.:1345 | NA | NA | 3rd Qu.:3.000 | 3rd Qu.:310.0 | 3rd Qu.: 252.0 | 3rd Qu.:2.00 | 3rd Qu.: 4.000 | 3rd Qu.: 7.000 | NA | NA | 3rd Qu.:-76.50 | 3rd Qu.:3.449 | |
| Max. :8271 | NA | NA | Max. :5.000 | Max. :750.0 | Max. :1745.0 | Max. :6.00 | Max. :10.000 | Max. :10.000 | NA | NA | Max. :-76.47 | Max. :3.490 | |
| NA | NA | NA | NA | NA | NA | NA’s :148 | NA | NA | NA | NA | NA | NA |
El análisis del gráfico de dispersión para la Zona Oriente revela una correlación positiva moderada entre el precio y el área construida, con un coeficiente de correlación de 0.41. Si bien existe una relación directa entre ambas variables, la influencia del área construida sobre el precio es menor que en las zonas Norte y Sur. La línea de tendencia indica un aumento promedio de 0.7 millones de pesos por cada metro cuadrado adicional, pero la dispersión significativa de los puntos alrededor de la línea refleja una notable variabilidad en los precios.
Esta variabilidad puede ser explicada por una mayor influencia de otros factores como la ubicación, la calidad de la construcción, las características de la casa y las condiciones del mercado inmobiliario en la Zona Oriente.
## Tabla de frecuencia de tipos de vivienda en la zona oriente:
| Var1 | Freq |
|---|---|
| Casa | 289 |
## Tabla de frecuencia de estratos en la zona oriente:
| Var1 | Freq |
|---|---|
| 3 | 282 |
| 4 | 6 |
| 5 | 1 |
## Tabla de frecuencia de barrios en la zona oriente (ordenada por frecuencia descendente):
| Var1 | Freq |
|---|---|
| alfonso lópez | 19 |
| atanasio girardot | 7 |
| 20 de julio | 3 |
| antonio nariño | 2 |
| agua blanca | 1 |
| aguablanca | 1 |
| alfonso lopez | 1 |
| alfonso lópez i | 1 |
| arboleda campestre candelaria | 1 |
| autopista sur | 1 |
Las estadísticas descriptivas de las ofertas de casas en la zona oeste reflejan una distribución diversa en los datos. Con un total de 169 registros, se aprecia una variabilidad considerable en los atributos considerados. Al igual que en otras zonas, se identifican valores faltantes en algunos atributos, lo cual es coherente con la estructura original del dataset.
En relación a los precios de las casas, se evidencia una variación amplia, con valores que oscilan entre 135 y 1999 unidades monetarias. Tanto la mediana como la media sugieren que la mayoría de las casas tienen precios alrededor de 680 y 736.4 unidades monetarias, respectivamente.
El análisis del área construida también muestra una diversidad notable, con valores que van desde 55 hasta 1200 metros cuadrados. La mediana y la media indican que la mayoría de las casas tienen un área construida de alrededor de 300 y 343.2 metros cuadrados, respectivamente.## Primeros 3 registros de la base de datos filtrada:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 6928 | Zona Oeste | 03 | 6 | 1850 | 302 | 4 | 4 | 3 | Casa | aguacatal | -76.54600 | 3.44400 |
| 7510 | Zona Oeste | 03 | 6 | 1950 | 400 | 4 | 5 | 3 | Casa | aguacatal | -76.55000 | 3.45600 |
| 7586 | Zona Oeste | 03 | 6 | 870 | 275 | 3 | 5 | 4 | Casa | aguacatal | -76.55074 | 3.45649 |
## Estadísticas descriptivas de las ofertas de casas en la zona Oeste:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. : 2 | Length:169 | Length:169 | Min. :3.000 | Min. : 135.0 | Min. : 55.0 | Min. :1.000 | Min. :0.00 | Min. : 0.000 | Length:169 | Length:169 | Min. :-76.57 | Min. :3.398 | |
| 1st Qu.:5836 | Class :character | Class :character | 1st Qu.:4.000 | 1st Qu.: 430.0 | 1st Qu.: 233.0 | 1st Qu.:1.000 | 1st Qu.:3.00 | 1st Qu.: 4.000 | Class :character | Class :character | 1st Qu.:-76.55 | 1st Qu.:3.437 | |
| Median :6725 | Mode :character | Mode :character | Median :5.000 | Median : 680.0 | Median : 300.0 | Median :2.000 | Median :4.00 | Median : 4.000 | Mode :character | Mode :character | Median :-76.54 | Median :3.444 | |
| Mean :6235 | NA | NA | Mean :4.899 | Mean : 736.4 | Mean : 343.2 | Mean :2.311 | Mean :4.26 | Mean : 4.645 | NA | NA | Mean :-76.54 | Mean :3.443 | |
| 3rd Qu.:7332 | NA | NA | 3rd Qu.:6.000 | 3rd Qu.: 930.0 | 3rd Qu.: 435.0 | 3rd Qu.:3.000 | 3rd Qu.:5.00 | 3rd Qu.: 5.000 | NA | NA | 3rd Qu.:-76.54 | 3rd Qu.:3.451 | |
| Max. :8311 | NA | NA | Max. :6.000 | Max. :1999.0 | Max. :1200.0 | Max. :7.000 | Max. :9.00 | Max. :10.000 | NA | NA | Max. :-76.46 | Max. :3.494 | |
| NA | NA | NA | NA | NA | NA | NA’s :37 | NA | NA | NA | NA | NA | NA |
El gráfico de dispersión para la Zona Oeste muestra una correlación positiva moderada entre el precio y el área construida, con un coeficiente de correlación de 0.59. Esto indica una relación directa, pero no determinante, entre ambas variables. La línea de tendencia sugiere un aumento promedio de 0.95 millones de pesos por cada metro cuadrado adicional, pero la considerable dispersión de los puntos alrededor de la línea refleja una variación notable en los precios.
## Tabla de frecuencia de tipos de vivienda en la zona Oeste:
| Var1 | Freq |
|---|---|
| Casa | 169 |
## Tabla de frecuencia de estratos en la zona Oeste:
| Var1 | Freq |
|---|---|
| 3 | 25 |
| 4 | 26 |
| 5 | 59 |
| 6 | 59 |
## Tabla de frecuencia de barrios en la zona oeste (ordenada por frecuencia descendente):
| Var1 | Freq |
|---|---|
| aguacatal | 11 |
| cristales | 10 |
| bella suiza | 7 |
| bellavista | 7 |
| el peñon | 4 |
| altos de guadalupe | 1 |
| bella suiza alta | 1 |
| el nacional | 1 |
| juanamb√∫ | 1 |
| la cascada | 1 |
Las estadísticas descriptivas de las ofertas de casas en la zona centro revelan una distribución diversificada en los datos. Con un total de 100 registros, se destaca una variabilidad significativa en los atributos considerados. Al igual que en otras zonas, se encuentran valores faltantes en algunos atributos, lo cual es coherente con la estructura original del dataset.
En cuanto a los precios de las casas, se observa una variación considerable, con valores que van desde 148 hasta 1100 unidades monetarias. Tanto la mediana como la media sugieren que la mayoría de las casas tienen precios alrededor de 310 y 339.2 unidades monetarias, respectivamente.
El análisis del área construida también muestra una diversidad significativa, con valores que van desde 74 hasta 750 metros cuadrados. La mediana y la media indican que la mayoría de las casas tienen un área construida de alrededor de 200 y 217.8 metros cuadrados, respectivamente.
## Primeros 3 registros de la base de datos filtrada:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 5298 | Zona Centro | 01 | 3 | 650 | 240 | 2 | 4 | 4 | Casa | alameda | -76.53564 | 3.43521 |
| 5107 | Zona Centro | 02 | 4 | 400 | 460 | NA | 5 | 7 | Casa | alameda | -76.53471 | 3.43627 |
| 5117 | Zona Centro | 02 | 3 | 380 | 290 | NA | 4 | 8 | Casa | alameda | -76.53481 | 3.43712 |
## Estadísticas descriptivas de las ofertas de casas en la zona Centro:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. : 572 | Length:100 | Length:100 | Min. :3.00 | Min. : 148.0 | Min. : 74.0 | Min. :1.000 | Min. :0.00 | Min. : 0.00 | Length:100 | Length:100 | Min. :-76.54 | Min. :3.398 | |
| 1st Qu.:2976 | Class :character | Class :character | 1st Qu.:3.00 | 1st Qu.: 238.8 | 1st Qu.:146.5 | 1st Qu.:1.000 | 1st Qu.:2.00 | 1st Qu.: 3.00 | Class :character | Class :character | 1st Qu.:-76.53 | 1st Qu.:3.436 | |
| Median :3739 | Mode :character | Mode :character | Median :3.00 | Median : 310.0 | Median :200.0 | Median :1.000 | Median :3.00 | Median : 5.00 | Mode :character | Mode :character | Median :-76.53 | Median :3.439 | |
| Mean :3816 | NA | NA | Mean :3.12 | Mean : 339.2 | Mean :217.8 | Mean :1.481 | Mean :3.01 | Mean : 5.11 | NA | NA | Mean :-76.53 | Mean :3.440 | |
| 3rd Qu.:4765 | NA | NA | 3rd Qu.:3.00 | 3rd Qu.: 382.5 | 3rd Qu.:265.5 | 3rd Qu.:1.750 | 3rd Qu.:4.00 | 3rd Qu.: 7.00 | NA | NA | 3rd Qu.:-76.52 | 3rd Qu.:3.444 | |
| Max. :6662 | NA | NA | Max. :6.00 | Max. :1100.0 | Max. :750.0 | Max. :6.000 | Max. :9.00 | Max. :10.00 | NA | NA | Max. :-76.50 | Max. :3.477 | |
| NA | NA | NA | NA | NA | NA | NA’s :46 | NA | NA | NA | NA | NA | NA |
El gráfico de dispersión para la Zona Centro revela una correlación positiva moderada entre el precio y el área construida, con un coeficiente de correlación de 0.53. Si bien existe una relación directa entre ambas variables, la influencia del área construida sobre el precio es menor que en otras zonas. La línea de tendencia indica un aumento promedio de 0.85 millones de pesos por cada metro cuadrado adicional, pero la notable dispersión de los puntos alrededor de la línea refleja una variabilidad considerable en los precios.
## Tabla de frecuencia de tipos de vivienda en la zona Centro:
| Var1 | Freq |
|---|---|
| Casa | 100 |
## Tabla de frecuencia de estratos en la zona Centro:
| Var1 | Freq |
|---|---|
| 3 | 91 |
| 4 | 7 |
| 5 | 1 |
| 6 | 1 |
## Tabla de frecuencia de barrios en la zona oriente (ordenada por frecuencia descendente):
| Var1 | Freq |
|---|---|
| aranjuez | 14 |
| bretaña | 11 |
| alameda | 9 |
| centro | 3 |
| belalcazar | 2 |
| benjamín herrera | 2 |
| barrio obrero | 1 |
| Belalcazar | 1 |
| colseguros | 1 |
| el troncal | 1 |
En el siguiente mapa se puede observar a una sola vista como se encuentra la distribución de casas según la zona registrada en el dataset, es importante destacar que se logra identificar que existen barrios que según sus coordenadas comparten la misma zona, esto puede deberse a errores humanos en el ingreso de longitud y latitud o en la asignación de la variable barrio en el sistema de información que se diseñó para la captura de los datos.
Correlación de la variable precio de la casa en función de: área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda
En este apartado teniendo en cuenta el EDA realizado como resultado del análisis de correlación entre la variable respuesta (preciom) del tipo de vivienda Casa y las variables predictoras (areaconst, estrato, banios, habitaciones y zona) se grafican a continuación 2 modelos de graficas:
Dispersión: Este tipo de gráfico se utiliza para visualizar la relación entre dos variables cuantitativas, como el precio y el área construida, el precio y el estrato, el precio y el número de baños, y el precio y el número de habitaciones. Cada punto en el gráfico representa una observación en el conjunto de datos. La posición de cada punto en los ejes x e y representa los valores de las dos variables.
Caja de bigotes: Este tipo de gráfico se utiliza para visualizar la distribución de una variable numérica en diferentes niveles de una variable categórica. En este caso, se utiliza para visualizar la distribución de los precios (variable respuesta) en cada zona (variable categórica).
## preciom areaconst estrato habitaciones parqueaderos
## preciom 1.00000000 0.6529498 0.6658021 0.09683573 NA
## areaconst 0.65294983 1.0000000 0.3701747 0.28660204 NA
## estrato 0.66580209 0.3701747 1.0000000 -0.11405430 NA
## habitaciones 0.09683573 0.2866020 -0.1140543 1.00000000 NA
## parqueaderos NA NA NA NA 1
## banios 0.55810021 0.4871721 0.4488832 0.47574058 NA
## banios
## preciom 0.5581002
## areaconst 0.4871721
## estrato 0.4488832
## habitaciones 0.4757406
## parqueaderos NA
## banios 1.0000000
La correlación más alta con “preciom” es con la variable “estrato” (0.6658), seguida por “areaconst” (0.6529) y “banios” (0.5581). Esto indica que hay una correlación positiva moderada a fuerte entre el precio de la vivienda y estas características.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = vivienda_casa)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1190.80 -114.52 -25.94 74.59 986.16
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -413.87536 25.58852 -16.174 < 2e-16 ***
## areaconst 0.74227 0.02941 25.235 < 2e-16 ***
## estrato 116.07109 5.26618 22.041 < 2e-16 ***
## habitaciones -14.74995 3.18137 -4.636 3.73e-06 ***
## parqueaderos 64.29943 3.47719 18.492 < 2e-16 ***
## banios 39.03498 4.05083 9.636 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 205.2 on 2480 degrees of freedom
## (733 observations deleted due to missingness)
## Multiple R-squared: 0.6834, Adjusted R-squared: 0.6828
## F-statistic: 1071 on 5 and 2480 DF, p-value: < 2.2e-16
## [1] 0.6833953
Los resultados de la estimación del modelo de regresión lineal múltiple son los siguientes:
:
El coeficiente de determinación (R^2) es aproximadamente 0.6834. Esto significa que alrededor del 68.34% de la variabilidad en el precio de la vivienda puede ser explicada por las variables independientes incluidas en el modelo. Esto indica un buen ajuste del modelo a los datos observados.
Discusión sobre el ajuste del modelo e implicaciones: Dado que el coeficiente de determinación es relativamente alto, sugiere que el modelo de regresión lineal múltiple es capaz de explicar una proporción significativa de la variabilidad en el precio de la vivienda utilizando las variables incluidas. Sin embargo, siempre hay margen para mejorar el modelo. Para ello, podríamos considerar la inclusión de variables adicionales relevantes, como la ubicación geográfica, la antigüedad de la propiedad o características específicas del vecindario, que podrían mejorar la capacidad predictiva del modelo y explicar aún más la variabilidad en los precios de las propiedades. Además, podríamos explorar posibles transformaciones en las variables existentes o técnicas de modelado más avanzadas para mejorar aún más la precisión del modelo.
Esta sección tiene como objetivo realizar pruebas para validar dos supuestos importantes en el análisis de regresión lineal:
Normalidad de los residuos: En donde la prueba de Shapiro-Wilk pretende evaluar si los residuos del modelo siguen una distribución normal. Esto es importante porque el análisis de regresión lineal asume que los errores (residuos) siguen una distribución normal. Si los residuos no se distribuyen normalmente, podría indicar que el modelo no está capturando completamente la estructura de los datos o que hay otros factores que no se han tenido en cuenta.
Homocedasticidad de los residuos: En donde la prueba de Breusch-Pagan pretende evaluar si los residuos tienen una varianza constante en relación con las variables independientes. La homocedasticidad significa que la varianza de los residuos es constante en todos los niveles de las variables independientes. Si hay heterocedasticidad, es decir, la varianza de los residuos no es constante, puede haber un problema de modelado que afecte la precisión de las estimaciones y las pruebas de hipótesis.
.##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.89699, p-value < 2.2e-16
##
## studentized Breusch-Pagan test
##
## data: modelo_rlm_casa
## BP = 321.2, df = 5, p-value < 2.2e-16
En conclusión, el análisis de los residuos del modelo de regresión lineal sugiere que no se ajustan completamente a la normalidad, aunque la desviación no es grave y el tamaño de la muestra parece ser grande. La prueba de Shapiro-Wilk rechaza la normalidad de los residuos, mientras que la prueba de Breusch-Pagan no encuentra evidencia de heterocedasticidad.
## index precio_predicho
## 1 1 282.1364
## 2 2 296.9818
## 3 3 346.4359
## 5 5 321.1714
## 6 6 336.0168
## 9 9 267.3865
## 10 10 282.2318
## 11 11 331.6859
## 12 12 346.5312
## 13 13 306.4215
## 14 14 321.2668
Los resultados muestran las características de las primeras cinco viviendas potenciales que cumplen con las condiciones establecidas y cuyo precio estimado no supera el límite del crédito preaprobado para la nueva vivienda.
Área Construida:Las áreas construidas de estas viviendas varían entre 180 y 200 metros cuadrados. Parqueaderos: Todas las viviendas tienen al menos un parqueadero, con una de ellas teniendo dos. Baños: La cantidad de baños oscila entre 2 y 3. Habitaciones:** Todas las viviendas tienen entre 3 y 4 habitaciones. Estrato: Las viviendas pertenecen a estratos 4. Zona: Todas las viviendas se encuentran en la Zona Norte. Precio Estimado: Los precios estimados de estas viviendas varían entre 282.1364 y 346.4359 millones de pesos.
Estos resultados son útiles para presentar a Maria las primeras opciones de viviendas potenciales que se ajustan a los criterios establecidos y están dentro del presupuesto disponible para su compra.## areaconst parqueaderos banios habitaciones estrato zona precio_estimado
## 1 180 1 2 3 4 Zona Norte 282.1364
## 2 200 1 2 3 4 Zona Norte 296.9818
## 3 180 2 2 3 4 Zona Norte 346.4359
## 5 180 1 3 3 4 Zona Norte 321.1714
## 6 200 1 3 3 4 Zona Norte 336.0168
Base 1 Apartamentos Zona Norte
## Primeros 3 registros de la base de datos filtrada:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1212 | Zona Norte | 01 | 5 | 260 | 90 | 1 | 2 | 3 | Apartamento | acopi | -76.51350 | 3.45891 |
| 1724 | Zona Norte | 01 | 5 | 240 | 87 | 1 | 3 | 3 | Apartamento | acopi | -76.51700 | 3.36971 |
| 2326 | Zona Norte | 01 | 4 | 220 | 52 | 2 | 2 | 3 | Apartamento | acopi | -76.51974 | 3.42627 |
Base 2 Apartamentos Zona Sur
## Primeros 3 registros de la base de datos filtrada:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 5098 | Zona Sur | 05 | 4 | 290 | 96 | 1 | 2 | 3 | Apartamento | acopi | -76.53464 | 3.44987 |
| 698 | Zona Sur | 02 | 3 | 78 | 40 | 1 | 1 | 2 | Apartamento | aguablanca | -76.50100 | 3.40000 |
| 8199 | Zona Sur | NA | 6 | 875 | 194 | 2 | 5 | 3 | Apartamento | aguacatal | -76.55700 | 3.45900 |
Base 2 Apartamentos Zona Oeste
## Primeros 3 registros de la base de datos filtrada:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 6999 | Zona Oeste | 01 | 6 | 870 | 200 | 2 | 5 | 3 | Apartamento | aguacatal | -76.54666 | 3.44624 |
| 8037 | Zona Oeste | 01 | 4 | 130 | 50 | NA | 1 | 3 | Apartamento | aguacatal | -76.55409 | 3.44338 |
| 8055 | Zona Oeste | 01 | 4 | 165 | 61 | 1 | 2 | 3 | Apartamento | aguacatal | -76.55447 | 3.45783 |
Base 2 Apartamentos Zona Oriente
## Primeros 3 registros de la base de datos filtrada:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 82 | Zona Oriente | 01 | 3 | 115 | 111 | 1 | 2 | 4 | Apartamento | alfonso lópez | -76.48141 | 3.45379 |
| 78 | Zona Oriente | 02 | 3 | 58 | 50 | 1 | 1 | 2 | Apartamento | alfonso lópez | -76.47978 | 3.45131 |
| 999 | Zona Oriente | 02 | 3 | 135 | 120 | NA | 2 | 4 | Apartamento | atanasio girardot | -76.50737 | 3.44454 |
Base 2 Apartamentos Zona Centro
## Primeros 3 registros de la base de datos filtrada:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 4654 | Zona Centro | 03 | 3 | 100 | 70.00 | NA | 2 | 3 | Apartamento | alameda | -76.53200 | 3.45200 |
| 4408 | Zona Centro | 05 | 3 | 120 | 84.00 | 1 | 2 | 3 | Apartamento | alameda | -76.53123 | 3.44011 |
| 4395 | Zona Centro | 04 | 3 | 125 | 66.76 | NA | 2 | 3 | Apartamento | bretaña | -76.53111 | 3.44034 |
Basado en la información generada se identifica que según el gráfico de dispersión: La zona oeste presenta la mayor concentración de puntos en la zona superior derecha, lo que indica una mayor cantidad de propiedades con precios elevados y áreas construidas amplias. de otra parte el rango de precios para la zona oeste es el más alto, por tanto, la zona oeste tiene el coeficiente de correlación más fuerte (0.82), lo que indica una relación más estrecha entre precio y área construida.
Ahora hablando de la comparación con otras zonas, se observa que la Zona Sur aunque tiene un coeficiente de correlación similar a la zona norte (0.76), el rango de precios es ligeramente inferior. La Zona Norte: Si bien presenta un rango de precios similar a la zona sur, la concentración de puntos en la zona superior derecha del gráfico de dispersión es menor. Por su parte la Zona Oriente es la que presenta los precios más bajos, aunque presenta un dato atípico en la gráfica este no altera la tendencia general de precios más bajos. Por ultimo la Zona Centro Ofrece precios intermedios, con una poca oferta inmoboliaria respecto a Apartamento, esto puede deberse a la dinamica comercial propia del sector reduciendo la vivienda residencial.
Tambien es valido destacar que al igual con los datos registrados en el tipo de vivienda “Casa” se evidencia un error humano en la asignación del tipo de zona o en los datos de longitud y latitud dado que en el ultimo grafico se observa que existen traslapos en los colores, esto sucede con mayor incidencia en la parte superior del mapa.## id zona piso estrato
## Min. : 3 Length:5100 Length:5100 Min. :3.000
## 1st Qu.:2180 Class :character Class :character 1st Qu.:4.000
## Median :4158 Mode :character Mode :character Median :5.000
## Mean :4284 Mean :4.727
## 3rd Qu.:6556 3rd Qu.:6.000
## Max. :8317 Max. :6.000
##
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 35.0 Min. : 1.000 Min. :0.000
## 1st Qu.: 175.0 1st Qu.: 68.0 1st Qu.: 1.000 1st Qu.:2.000
## Median : 279.0 Median : 90.0 Median : 1.000 Median :2.000
## Mean : 366.9 Mean :112.8 Mean : 1.568 Mean :2.617
## 3rd Qu.: 430.0 3rd Qu.:130.0 3rd Qu.: 2.000 3rd Qu.:3.000
## Max. :1950.0 Max. :932.0 Max. :10.000 Max. :8.000
## NA's :869
## habitaciones tipo barrio longitud
## Min. :0.000 Length:5100 Length:5100 Min. :-76.59
## 1st Qu.:3.000 Class :character Class :character 1st Qu.:-76.54
## Median :3.000 Mode :character Mode :character Median :-76.53
## Mean :2.971 Mean :-76.53
## 3rd Qu.:3.000 3rd Qu.:-76.52
## Max. :9.000 Max. :-76.46
##
## latitud
## Min. :3.334
## 1st Qu.:3.380
## Median :3.419
## Mean :3.419
## 3rd Qu.:3.453
## Max. :3.498
##
## tibble [5,100 × 13] (S3: tbl_df/tbl/data.frame)
## $ id : num [1:5100] 1212 1724 2326 4386 7497 ...
## $ zona : chr [1:5100] "Zona Norte" "Zona Norte" "Zona Norte" "Zona Norte" ...
## $ piso : chr [1:5100] "01" "01" "01" "01" ...
## $ estrato : num [1:5100] 5 5 4 5 6 4 5 3 3 6 ...
## $ preciom : num [1:5100] 260 240 220 310 520 320 385 100 175 820 ...
## $ areaconst : num [1:5100] 90 87 52 137 98 108 103 49 80 377 ...
## $ parqueaderos: num [1:5100] 1 1 2 2 2 2 2 NA 1 1 ...
## $ banios : num [1:5100] 2 3 2 3 2 3 2 1 2 4 ...
## $ habitaciones: num [1:5100] 3 3 3 4 2 3 3 2 3 4 ...
## $ tipo : chr [1:5100] "Apartamento" "Apartamento" "Apartamento" "Apartamento" ...
## $ barrio : chr [1:5100] "acopi" "acopi" "acopi" "acopi" ...
## $ longitud : num [1:5100] -76.5 -76.5 -76.5 -76.5 -76.5 ...
## $ latitud : num [1:5100] 3.46 3.37 3.43 3.38 3.44 ...
## id estrato preciom areaconst
## Min. : 3 Min. :3.000 Min. : 58.0 Min. : 35.0
## 1st Qu.:2180 1st Qu.:4.000 1st Qu.: 175.0 1st Qu.: 68.0
## Median :4158 Median :5.000 Median : 279.0 Median : 90.0
## Mean :4284 Mean :4.727 Mean : 366.9 Mean :112.8
## 3rd Qu.:6556 3rd Qu.:6.000 3rd Qu.: 430.0 3rd Qu.:130.0
## Max. :8317 Max. :6.000 Max. :1950.0 Max. :932.0
##
## parqueaderos banios habitaciones longitud
## Min. : 1.000 Min. :0.000 Min. :0.000 Min. :-76.59
## 1st Qu.: 1.000 1st Qu.:2.000 1st Qu.:3.000 1st Qu.:-76.54
## Median : 1.000 Median :2.000 Median :3.000 Median :-76.53
## Mean : 1.568 Mean :2.617 Mean :2.971 Mean :-76.53
## 3rd Qu.: 2.000 3rd Qu.:3.000 3rd Qu.:3.000 3rd Qu.:-76.52
## Max. :10.000 Max. :8.000 Max. :9.000 Max. :-76.46
## NA's :869
## latitud
## Min. :3.334
## 1st Qu.:3.380
## Median :3.419
## Mean :3.419
## 3rd Qu.:3.453
## Max. :3.498
##
## < table of extent 0 x 0 >
## $preciom
## Df Sum Sq Mean Sq F value Pr(>F)
## zona 4 118380819 29595205 489.3 <2e-16 ***
## Residuals 5095 308139573 60479
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## $areaconst
## Df Sum Sq Mean Sq F value Pr(>F)
## zona 4 4566161 1141540 291.3 <2e-16 ***
## Residuals 5095 19963328 3918
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## $estrato
## Df Sum Sq Mean Sq F value Pr(>F)
## zona 4 1156 289.03 396.3 <2e-16 ***
## Residuals 5095 3715 0.73
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## $banios
## Df Sum Sq Mean Sq F value Pr(>F)
## zona 4 827 206.79 210.9 <2e-16 ***
## Residuals 5095 4996 0.98
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## $habitaciones
## Df Sum Sq Mean Sq F value Pr(>F)
## zona 4 18 4.508 9.935 5.25e-08 ***
## Residuals 5095 2312 0.454
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
| Name | vivienda_apartamento |
| Number of rows | 5100 |
| Number of columns | 13 |
| _______________________ | |
| Column type frequency: | |
| character | 4 |
| numeric | 9 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| zona | 0 | 1.00 | 8 | 12 | 0 | 5 | 0 |
| piso | 1381 | 0.73 | 2 | 2 | 0 | 12 | 0 |
| tipo | 0 | 1.00 | 11 | 11 | 0 | 1 | 0 |
| barrio | 0 | 1.00 | 4 | 29 | 0 | 289 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| id | 0 | 1.00 | 4284.03 | 2449.82 | 3.00 | 2179.75 | 4158.50 | 6556.25 | 8317.00 | ▆▇▆▆▇ |
| estrato | 0 | 1.00 | 4.73 | 0.98 | 3.00 | 4.00 | 5.00 | 6.00 | 6.00 | ▃▆▁▇▆ |
| preciom | 0 | 1.00 | 366.94 | 289.22 | 58.00 | 175.00 | 279.00 | 430.00 | 1950.00 | ▇▂▁▁▁ |
| areaconst | 0 | 1.00 | 112.78 | 69.36 | 35.00 | 68.00 | 90.00 | 130.00 | 932.00 | ▇▁▁▁▁ |
| parqueaderos | 869 | 0.83 | 1.57 | 0.74 | 1.00 | 1.00 | 1.00 | 2.00 | 10.00 | ▇▁▁▁▁ |
| banios | 0 | 1.00 | 2.62 | 1.07 | 0.00 | 2.00 | 2.00 | 3.00 | 8.00 | ▁▇▂▁▁ |
| habitaciones | 0 | 1.00 | 2.97 | 0.68 | 0.00 | 3.00 | 3.00 | 3.00 | 9.00 | ▁▇▂▁▁ |
| longitud | 0 | 1.00 | -76.53 | 0.02 | -76.59 | -76.54 | -76.53 | -76.52 | -76.46 | ▁▅▇▂▁ |
| latitud | 0 | 1.00 | 3.42 | 0.04 | 3.33 | 3.38 | 3.42 | 3.45 | 3.50 | ▂▇▅▇▅ |
Interpretación del Modelo El modelo de regresión lineal múltiple ajustado es:
Precio = β0 + β1 * Área Construida + β2 * Estrato + β3 * Parqueaderos + β4 * Baños + β5 * Habitaciones + ε
Donde:
β0 es el intercepto, que representa el precio esperado cuando todas las demás variables son cero. β1, β2, β3, β4 y β5 son los coeficientes de regresión que representan el cambio esperado en el precio para un aumento unitario en cada variable, manteniendo todas las demás variables constantes. ε es el término de error.##
## Call:
## lm(formula = preciom ~ areaconst + estrato + banios + habitaciones +
## zona, data = vivienda_apartamento_seleccion)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1904.61 -51.00 1.05 45.20 971.19
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -257.42194 29.85912 -8.621 < 2e-16 ***
## areaconst 2.22296 0.04204 52.873 < 2e-16 ***
## estrato 56.91854 2.68697 21.183 < 2e-16 ***
## banios 61.11292 2.99576 20.400 < 2e-16 ***
## habitaciones -32.93022 3.32925 -9.891 < 2e-16 ***
## zonaZona Norte 31.08865 27.80772 1.118 0.264
## zonaZona Oeste 118.86179 28.15735 4.221 2.47e-05 ***
## zonaZona Oriente 19.31989 32.37714 0.597 0.551
## zonaZona Sur 20.09085 27.71277 0.725 0.469
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 134.6 on 5091 degrees of freedom
## Multiple R-squared: 0.7839, Adjusted R-squared: 0.7836
## F-statistic: 2308 on 8 and 5091 DF, p-value: < 2.2e-16
## El coeficiente para el área construida es: 2.222963
## Los coeficientes para los estratos son: 56.91854
## El coeficiente para los baños es: 61.11292
## El coeficiente para las habitaciones es: -32.93022
## Los coeficientes para las zonas son: 31.08865 118.8618 19.31989 20.09085
## El R^2 del modelo es: 0.7838911
El análisis del modelo de regresión aplicado revela que el precio de la vivienda está influenciado significativamente por diversas características. Por cada metro cuadrado adicional en el área construida, el precio aumenta en aproximadamente $2.22 millones. Respecto a los estratos, se observa un aumento significativo en el precio con valores cercanos a $56.92 millones para estrato 6, mientras que para los baños y habitaciones, se registra un incremento de aproximadamente $61.11 millones y una disminución de alrededor de $32.93 millones, respectivamente, por cada unidad adicional. En cuanto a las zonas, se identifican variaciones de precios significativas, siendo la Zona Sur la de mayor impacto con un incremento de $118.86 millones, seguida por la Zona Norte con $31.09 millones, la Zona Oeste con $20.09 millones y la Zona Centro con $19.32 millones. El modelo tiene un coeficiente de determinación (R^2) de aproximadamente 0.78, lo que indica que alrededor del 78.39% de la variabilidad en el precio de la vivienda puede ser explicada por las variables incluidas en el modelo, demostrando un buen ajuste.
##
## studentized Breusch-Pagan test
##
## data: modelo_regresion
## BP = 1465.5, df = 8, p-value < 2.2e-16
##
## Box-Ljung test
##
## data: modelo_regresion$resid
## X-squared = 127.18, df = 1, p-value < 2.2e-16
Test de Breusch-Pagan para homocedasticidad: El valor de estadístico de prueba (BP) es 1465.5 con 8 grados de libertad, y el p-valor es menor que 2.2e-16. Esto indica que hay evidencia significativa para rechazar la hipótesis nula de homocedasticidad, lo que sugiere que los residuos no tienen varianza constante.
Test de Ljung-Box para autocorrelación de los residuos: El valor de estadístico de prueba (X-squared) es 127.18 con 1 grado de libertad, y el p-valor es menor que 2.2e-16. Esto indica que hay evidencia significativa para rechazar la hipótesis nula de independencia de los residuos, lo que sugiere que los residuos están autocorrelacionados.
Estos resultados pueden indicar que el modelo de regresión lineal múltiple puede no cumplir completamente con los supuestos de homocedasticidad e independencia de los residuos.## 1 2
## 732.8381 789.7567
La predicción del precio para la vivienda especificada es de $732.8381 millones (para el estrato 5) y $789.7567 millones (para el estrato 6).
## areaconst banios habitaciones estrato zona precio_estimado
## 1 280 3 4 5 Zona Sur 721.3091
## 2 300 3 4 5 Zona Sur 765.7684
## 3 280 4 4 5 Zona Sur 782.4220
## 4 300 4 4 5 Zona Sur 826.8813
## 5 280 3 5 5 Zona Sur 688.3789
Las ofertas potenciales presentan una variedad de opciones en términos de tamaño, distribución de espacios y precios estimados. La primera oferta, con un área construida de 280 metros cuadrados, ofrece 3 baños y 4 habitaciones, con un precio estimado de alrededor de $721.31 millones. La segunda opción, también con 300 metros cuadrados, cuenta con características similares pero un precio ligeramente superior, aproximadamente $765.77 millones. La tercera y cuarta oferta, con áreas construidas de 280 y 300 metros cuadrados respectivamente, presentan 4 baños y 4 habitaciones, con precios estimados de $782.42 y $826.88 millones respectivamente. Finalmente, la quinta oferta, con 280 metros cuadrados, ofrece 3 baños y 5 habitaciones, con el precio estimado más bajo de todas, alrededor de $688.38 millones. Estas opciones brindan a los potenciales compradores una gama de alternativas para seleccionar la vivienda que mejor se ajuste a sus necesidades y presupuesto.
Si deseas consultar como fue construido y desarrollado mi informe, ingresa al siguiente enlace: Repositorio Github